The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
在各种图像处理和计算机视觉任务中经常遇到颜色图像Denoising。一种传统的策略是将RGB图像转换为较小相关的颜色空间,并分别将新空间的每个通道定义。但是,这种策略无法完全利用渠道之间的相关信息,并且不足以获得令人满意的结果。为了解决这个问题,本文提出了一个新的多通道优化模型,用于在核定标准下减去Frobenius规范最小化框架下的颜色图像Deno。具体而言,基于块匹配,将颜色图像分解为重叠的RGB补丁。对于每个补丁,我们堆叠其相似的邻居以形成相应的补丁矩阵。提出的模型是在补丁矩阵上执行的,以恢复其无噪声版本。在恢复过程中,a)引入权重矩阵以充分利用通道之间的噪声差; b)单数值是自适应缩小的,而无需分配权重。有了他们,提议的模型可以在保持简单的同时取得有希望的结果。为了解决提出的模型,基于乘数框架的交替方向方法构建了准确有效的算法。每个更新步骤的解决方案可以在封闭式中分析表达。严格的理论分析证明了所提出的算法产生的解决方案序列会收敛到其各自的固定点。合成和真实噪声数据集的实验结果证明了所提出的模型优于最先进的模型。
translated by 谷歌翻译
视觉模仿学习为机器人系统提供了有效,直观的解决方案,以获得新颖的操纵技巧。但是,仅凭视觉输入就可以同时学习几何任务约束,并控制政策仍然是一个具有挑战性的问题。在本文中,我们提出了一种基于关键点的视觉模仿(K-VIL)的方法,该方法会自动从少数人类演示视频中提取稀疏,以对象独立的任务表示。任务表示形式由主要歧管,其关联的本地框架以及任务执行所需的运动原始框架上的基于关键点的几何约束以及移动原始构成。我们的方法能够从单个演示视频中提取此类任务表示,并在新演示可用时会逐步更新它们。为了使用新颖的场景中学习的优先几何约束来重现操纵技能,我们介绍了一种新颖的基于Kepoint的入学控制器。我们在几个现实世界中评估了我们的方法,展示了其处理混乱的场景,新的对象的新实例以及大对象姿势和形状变化的能力,以及其一声效率和稳健性模仿学习设置。视频和源代码可在https://sites.google.com/view/k-vil上找到。
translated by 谷歌翻译
半监督学习(SSL)通过利用大量未标记数据来增强有限标记的样品来改善模型的概括。但是,目前,流行的SSL评估协议通常受到计算机视觉(CV)任务的约束。此外,以前的工作通常从头开始训练深层神经网络,这是耗时且环境不友好的。为了解决上述问题,我们通过从简历,自然语言处理(NLP)和音频处理(AUDIO)中选择15种不同,具有挑战性和全面的任务来构建统一的SSL基准(USB),我们会系统地评估主导的SSL方法,以及开源的一个模块化和可扩展的代码库,以对这些SSL方法进行公平评估。我们进一步为简历任务提供了最新的神经模型的预训练版本,以使成本负担得起,以进行进一步调整。 USB启用对来自多个域的更多任务的单个SSL算法的评估,但成本较低。具体而言,在单个NVIDIA V100上,仅需要37个GPU天才能在USB中评估15个任务的FIXMATCH,而335 GPU天(除ImageNet以外的4个CV数据集中的279 GPU天)在使用典型协议的5个CV任务上需要进行5个CV任务。
translated by 谷歌翻译
图形神经网络(GNN)在许多基于图的应用程序中取得了巨大成功。但是,巨大的尺寸和高稀疏度的图表阻碍了其在工业场景下的应用。尽管为大规模图提出了一些可扩展的GNN,但它们为每个节点采用固定的$ k $ hop邻域,因此在稀疏区域内采用大型繁殖深度时面临过度光滑的问题。为了解决上述问题,我们提出了一种新的GNN体系结构 - 图形注意多层感知器(GAMLP),该架构可以捕获不同图形知识范围之间的基本相关性。我们已经与天使平台部署了GAMLP,并进一步评估了现实世界数据集和大规模工业数据集的GAMLP。这14个图数据集的广泛实验表明,GAMLP在享有高可扩展性和效率的同时,达到了最先进的性能。具体来说,在我们的大规模腾讯视频数据集上的预测准确性方面,它的表现优于1.3 \%,同时达到了高达$ 50 \ times $ triending的速度。此外,它在开放图基准的最大同质和异质图(即OGBN-PAPERS100M和OGBN-MAG)的排行榜上排名第一。
translated by 谷歌翻译
Fusing the camera and LiDAR information has become a de-facto standard for 3D object detection tasks. Current methods rely on point clouds from the LiDAR sensor as queries to leverage the feature from the image space. However, people discovered that this underlying assumption makes the current fusion framework infeasible to produce any prediction when there is a LiDAR malfunction, regardless of minor or major. This fundamentally limits the deployment capability to realistic autonomous driving scenarios. In contrast, we propose a surprisingly simple yet novel fusion framework, dubbed BEVFusion, whose camera stream does not depend on the input of LiDAR data, thus addressing the downside of previous methods. We empirically show that our framework surpasses the state-of-the-art methods under the normal training settings. Under the robustness training settings that simulate various LiDAR malfunctions, our framework significantly surpasses the state-of-the-art methods by 15.7% to 28.9% mAP. To the best of our knowledge, we are the first to handle realistic LiDAR malfunction and can be deployed to realistic scenarios without any post-processing procedure. The code is available at https://github.com/ADLab-AutoDrive/BEVFusion.
translated by 谷歌翻译
对人类对象互动(HOI)的全面理解不仅需要检测一小部分预定义的HOI概念(或类别),还需要其他合理的HOI概念,而当前的方法通常无法探索大部分未知的HOI概念(即,即动词和对象的未知但合理的组合)。在本文中,1)我们介绍了一项新颖而挑战性的任务,以进行全面的HOI理解,称为HOI概念发现; 2)我们为HOI概念发现设计了一个自我复合学习框架(或SCL)。具体来说,我们在培训期间保持了在线更新的概念置信矩阵:1)根据自我训练的概念置信矩阵,我们为所有复合HOI实例分配了伪标记; 2)我们使用所有复合HOI实例的预测更新概念置信矩阵。因此,提出的方法可以对已知和未知的HOI概念进行学习。我们对几个流行的HOI数据集进行了广泛的实验,以证明提出的HOI概念发现方法,对象负担能力识别和HOI检测的有效性。例如,拟议的自我复合学习框架可显着提高1)HOI概念发现的性能,分别在HICO-DET上和V-Coco的3%以上。 2)在MS-Coco和Hico-Det上,对象负担能力识别超过9%的地图; 3)相对较少30%和20%。代码可在https://github.com/zhihou7/hoi-cl上公开获取。
translated by 谷歌翻译
点云注册是许多任务的基本步骤。在本文中,我们提出了一个名为detarnet的神经网络,将$ t $和旋转降序,以克服Point云注册的相互干扰导致的性能下降。首先,提出了一种基于暹罗网络的渐进和相干特征漂移(PCFD)模块以对准高维特征空间中的源点和目标点,并准确地从对准过程恢复转换。然后,我们提出了一种共识编码单元(CEU),以构建一组推定的对应关系的更区别特征。之后,采用空间和信道注意力(SCA)块来构建用于寻找良好通信的分类网络。最后,通过奇异值分解(SVD)获得旋转。以这种方式,所提出的网络对翻译和旋转的估计进行了解耦,导致它们两个的更好的性能。实验结果表明,拟议的Detarnet在室内和室外场景中提高了登记性能。我们的代码将在\ url {https://github.com/zhichen902/detarnet}中获得。
translated by 谷歌翻译
嵌入式模型是高维数据的有效学习范例。但是,嵌入模型的一个开放问题是它们的表示(潜在因子)通常会导致大参数空间。我们观察到,现有的分布式训练框架面临嵌入模型的可伸缩性问题,因为从服务器的共享嵌入参数更新和检索共享嵌入参数通常占主导地位培训周期。在本文中,我们提出了一种新的系统框架,可显着提高巨大嵌入模型培训的可扩展性。我们拥抱嵌入的嵌入式作为绩效机会的倾斜流行分布,并利用它来解决具有嵌入缓存的通信瓶颈。为确保缓存跨越一致性,我们将新的一致性模型纳入HET设计,该模型提供了在每嵌入的基础上提供细粒度的一致性保证。与以前的工作相比,只允许读取操作的僵化,HET也利用了写入操作的血液性。六种代表性任务的评估表明,在最先进的基线上,HET达到高达88%的嵌入通信减少和高达20.68倍的性能加速。
translated by 谷歌翻译
Graph神经网络(GNN)最近在许多基于图的应用程序中都实现了最先进的性能。尽管具有很高的表现力,但他们通常需要在多个培训时期进行昂贵的递归邻里扩展,并面临可伸缩性问题。此外,它们中的大多数是不灵活的,因为它们仅限于固定跳跃社区,并且对不同节点的实际接受场需求不敏感。我们通过引入可扩展且灵活的图表多层感知器(GAMLP)来规避这些限制。随着非线性转化和特征传播的分离,GAMLP通过以预先计算的方式执行传播程序来显着提高可伸缩性和效率。有了三个原则的接受场注意力,GAMLP中的每个节点都具有灵活性和适应性,以利用接收场的不同尺寸的传播特征。我们对三个大型开放图基准(例如OGBN-PAPERS100M,OGBN产品和OGBN-MAG)进行了广泛的评估,这表明GAMLP不仅可以实现前面的性能,而且还提供了较高的可扩展性和效率。
translated by 谷歌翻译